分析大会用データ

新型コロナウィルスに関するデータです。すべてオンラインで最新データが取得できます。

データ 区分 種別 形式 言語 DL 備考
厚生労働省オープンデータ 公開 集計 CSV 日本 集計データを個別ファイルで公開
Covid19 Japan 公開 個票・集計 JSON 英語 GitHubにて
JAG Japan 公開 個票 CSV 日本 GIS処理用データ付き

データ概略

厚生労働省オープンデータ(公開/集計/公式)

日本の公式データ。国内事例(チャーター便、空港検疫などを除く)の各報告日時点の集計値。

厚生労働省オープンデータの注意点

厚生労働省のデータはファイルにより単日であったり集計値であったりしますので、サイトの注意書きをよく読んでください。

データ 特記
陽性者数
PCR検査実施人数 当日と前日の累積人数の差を当日の実施人数として計上
入院治療等を要する者の数
退院又は治療解除となった者の数
死亡者数
PCR検査の実施件数 暫定値であり後日変更される可能性あり

Covid19 Japan(公開/個票・集計/非公式)

Exploratory EDA Salonなどで紹介されている有志によるJSON形式データ。個票データ(下表)と集計データに分かれています。全て英語。

Covid19 Japan データの注意点

GitHub からjsonliteパッケージを利用して読み込んでください。

library(jsonlite)
path <- "https://raw.githubusercontent.com/reustle/covid19japan-data/master/"
path <- paste0(path, "docs/patient_data/")

path %>% 
  paste0("latest.json") %>% 
  readr::read_lines() %>% 
  paste0(path, .) %>% 
  jsonlite::fromJSON()

個票データへのパスは表示の都合上、分割しています。
各列(変量、フィーチャー)の定義はこちら

JAG Japan (公開/個票/非公式)

ジャッグジャパンによるGISプロモーションを兼ねて独自に収集・公開している個票データ。集計データは厚生労働省のオープンデータを利用して表示。

JAG Japan データの注意点

特徴的なのはW列(23列)目以降にGIS処理用の変量(フィーチャー)が用意されている点です。これらの変量は分析には必要ありません。

Windows環境ではエラー回避のために下記の guess_maxオプションを指定してください。なお、指定してもGIS関連データの部分でワーニングが出ます。

  readr::read_csv(locale = readr::locale(encoding = "UTF-8"), guess_max = 5000)

各列(変量、フィーチャー)の定義は こちら

その他

データを食材に例えると

集計データ

安心の調理済み食材
 
調理済みなのでアレンジする余地があまりなく、いかに美味しそうに盛り付けるかがポイント。  

個票データ

バイヤー厳選食材セット
 
バイヤーによって食材の種類や品質が異なり、中には調理が厄介な食材が含まれることも。ただ、食材を追加したり調理方法を選ぶことができるので腕を振るえる。

データを扱う上でポイント

  • tidyverseパッケージを必ずインストール
    • readrならびにjsonliteパッケージはtidyverseパッケージに含まれます
  • CSVの読み込みにはreadr::read_csv関数で
    • ファイルにURLを指定すれば読み込むことができます
    • 文字化けする場合はlocaleオプションを指定してください
    • Warningなどが表示された場合は必ず読んで、確認してください
  • 読み込んだデータは各列(変量)のデータ型を必ず確認
    • 特に文字(chr)型になっている変量には注意してください
  • 本資料のコードがGoogle Colabで動作することは確認済

分析を行う際の注意点

  • 集計データを扱う場合は、集計条件をよく確認
    • 思い込みで扱うと思わぬ落とし穴があります
  • 個票データを扱う場合は、各列(変量)の持つ意味をよく確認
    • 個票データは非公式のデータなので、作成者により表記等が変わります
  • データがよく分からない場合はCSVファイルに書き出して眺める
    • readr::write_excel_csv(df, filepath) で書き出せます
  • 都道府県の地方区分などのデータは こちらで公開中
    • Wikipediaと総務省統計局の情報を元に作成してあります
    • 推定人口はH30年時点のもので単位は千人

Enjoy!